TP3STA – BIOSTATISTIK

Fråga om standardavvikelse (s), hypotestest mha T-test, konfidensintervall (KI) kommer på tentan.

Du behöver ha tillgång till en räknedosa som kan räkna ”roten ur”. Mobiltelefonen får inte användas.


För att se formlerna och uträkningarna bör du ladda ner dokumentversionen.



TP3STA – BIOSTATISTIK
Fråga om standardavvikelse (s), hypotestest mha T-test, konfidensintervall (KI) på tentan.

Du behöver ha tillgång till en räknedosa som kan räkna ”roten ur”. Mobiltelefonen får inte användas.

2014VT23-04-2014. Max: 37p. Godkänd: 25p (68%).

Vi skiljer på 2 huvudsakliga olika typer av fel som i någon omfattning drabbar alla typer av studier, vilka? Det ena kan man räkna på – vilket?

Systematiska fel och slumpfel.
Systematiska fel kan man räkna på = har vi mätt rätt saker, på rätt sätt, på ett representativt utvalt stickprov? Går att sortera upp.

Olle går termin 3 på tandläkarutbildningen. Han mäter sina kurskamraters längd enligt nedan (tabell). (Blåa siffror är sådana man får i tentafrågan)
Individ nr
Kön (0=man, 1=kvinna)
Längd i cm
Rangordnade data

x - x̄

(x- x̄)2
1
1
166
158
166 – 173,8 = -7,8
60,8
2
1
172
165
172 – 173,8 =

-1,8
3,24
3
1
178
166
4,2
17,6
4
1
165
166
8,8
77,4
5
0
180
167
6,2
38,4
6
1
180
167
6,2
38,4
7
0
199
169
25,2
635
8
0
175
170
1,2
1,44
9
1
158
172
-15,8
249,6
10
1
167
172
-6,8
46,2
11
1
169
175
-4,8
23,0
12
1
166
176
-7,8
60,8
13
0
179
178
5,2
27,0
14
1
167
179
-6,8
46,2
15
0
176
180
-7,2
4,84
16
0
190
180
16,2
262
17
1
172
190
-1,8
3,24
18
1
170
199
-3,8
14,4
∑:

3129


≈1609

a) Beräkna medelvärdet för kroppslängden i Olles kurs. Visa hur du gör. Avrunda till heltal.



Medelvärde, x = external image placeholder?w=200&h=50 , där ∑x = summan av termerna och n = antalet termer.



∑x = 166+172+178+…+176+190+172 = 3129



n = 18



x = external image placeholder?w=219&h=50



Medelvärdet för kroppslängden i Olles kurs är 174 cm.






b) Beräkna standardavvikelsen. Visa hur du gör. Formeln hittar du nedan

external image placeholder?w=200&h=58


n = 18
external image placeholder?w=366&h=58

Standardavvikelsen är 9,73.




c) Berätta med ord vad standardavvikelsen egentligen är för en siffra, vad den säger oss om fördelningen av våra data. Utgå gärna från formeln!

Standardavvikelsen (s) utgör det genomsnittliga avståndet till medelvärdet för alla variabler. external image placeholder?w=259&h=50 och external image placeholder?w=267&h=50 innefattar 68 % av stickprovets alla värden.

Fördelning av våra data är alltså ganska spridd. Ju högre standardavvikelsen är, ju mer spridd är datan.




d) Vilken sorts variabel är ”längd i cm”?

Kvantitativ - kvotskaletyp.




e) Diskret eller kontinuerlig, här? Du måste motivera ditt svar, annars blir det inga poäng!

Diskret, eftersom varje person har en bestämt längd i heltal. Det finns inga decimaler i värdena.



Hade det funnits decimaler (ex 168,3 istället för 168) skulle det varit en kontinuerlig variabel.




f) Vilken sorts variabel är ”kön”?

Kvalitativ – nominalskaletyp.




g) Det finns ett annat läges- eller centralmått förutom medelvärdet, som är flitigt använt, men som används till huvudsakligen andra sorters variabler än den som ”längd i cm” räknas som. Vilket?

Medianvärde.




h) Räkna ut detta mått, för ovanstående data. Använd tabellen ovan, om du tycker det är till hjälp. Visa hur du gör.

external image placeholder?w=506&h=50Medianvärdet ligger alltså mellan rangordningsplats 9 och 10. För att få fram detta tar vi

external image placeholder?w=605&h=75


och lägger till detta för värdet på rangordningsplats 9.



172 + 0 = 172



Medianvärdet är 172 cm.




i) Vilket spridningsmått hör ihop med det centralmått som avses i förra frågan?

Kvartilsavstånd.




j) Vilket kan skälet vara till att detta läges- eller centralmått, trots att variabelns typ säger att medelvärdet är bäst att använda, ÄNDÅ är att föredra?

Medelvärde = jämn fördelning

Median = skev fördelning



Vid jämn fördelning kommer medelvärde att fungera bra, då det inte finns några extremvärden.



Vid skev fördelning kommer däremot medelvärdet inkludera de utstickande extremvärdena. Exempelvis om man går 1, 2 och 20 km på 3 olika dagar, där 20 km också kommer användas för att räkna ut medelvärdet.

Medianen kommer istället säga att vi i genomsnitt gick 2 km per dag, vilket kan anses stämma bättre överens med verkligheten.




k) Sandra går terminen över Olle. Hon räknade ut standardavvikelsen för längden i cm i sin kurs, och fick en lägre siffra än Olle fick i sin kurs.



Vad säger det om Sandras kurs? Endast ett alternativ är rätt.
  • Den här färre elever
  • Där finns flest korta elever
  • Eleverna är mer olika långa
  • Eleverna har mer jämn höjd
  • Den har fler elever

Alla på kurslistan på Olles kurs T3 ville tyvärr inte delta i Olles studie. Vi tänker oss att Olles hela kurs T3 egentligen består av 30 personer, där hälften är kvinnor och hälften är män.
a) Olles urval blev tyvärr inte representativt. Hur vet man det?

Ur tabellen kan man läsa att”Kön (0=man, 1=kvinna)”. Totalt är det 12 kvinnor och 6 män som kommit med i Olles test. Stickprovet speglar alltså inte populationen (klassen). Hade det varit representativt skulle det varit 50/50 uppdelning mellan könen.




b) Vad kallas det problem han stötte på, som gjorde att urvalet inte blev representativt?

Systematiskt fel – bortfall. Alla var inte med i Olles studie.




c) Nämn en teknik för att åstadkomma ett representativt urval – givet att stickprovet inte är pyttelitet.

Randomisering, då deltagarna slumpas fram för att få ett representativt urval. Man kan även plocka bort 6 kvinnor från studien för att få stickprovet att bli mer representativt à 6 kvinnor, 6 män.




d) Medelvärdet du räknade fram ur Olles stickprov: Hur tror du det förhåller sig till det medelvärde han hade fått OM urvalet hade varit representativt för kursen T3?




  • Det jag räknat fram är antagligen STÖRRE än det hade varit om urvalet varit representativt
  • Det jag räknat fram är antagligen MINDRE än det hade varit om urvalet varit representativt
  • Det hade antagligen inte varit någon skillnad mellan mitt framräknade medelvärde och det medelvärde han hade fått ur ett representativt urval.

e) Hur tänkte du här? Motivera!

Det är fler kvinnor än män med i studien. Kvinnor är i allmänhet kortare än män. Hade det varit ett representativt urval och fler män varit med i studien hade medelvärdet sannolikt blivit större.

Olle får blodad tand, som man säger, av sin lilla datainsamling bland kurskamrater, och beslutar sig för att titta lite närmare på hur studenternas längd utvecklat sig under åren sen tandläkarutbildningen startade i Göteborg 1968 tills nu när han går där själv 2014. Olle mäter längden på nuvarande tandläkarstudenter och får medelvärdet till 178 cm. Från en undersökning som gjordes i samband med anatomiundervisningen under de första åren tandläkarutbildningen fås, att från ett stickprov på 121 dåvarande studenter var medelvärdet 176,7 cm och standardavvikelsen 6,18.

Kan man säga att den något större längd man uppmätt i genomsnitt hos dagens tandläkarstudenter statistiskt skiljer sig från längden uppmätt under slutet på 60-talet, och alltså kan sägas visa på kortare tandläkarstudenter för drygt 40 år sen?

Betrakta längden i cm som en approximativt normalfördelad variabel.



– Genomför lämpligt hypotestest – men svara först på några andra frågor:
a) Formulera din nollhypotes, matematiskt eller med ord.

Nollhypotesen är att medelvärdet på längden hos tandläkarstudenter inte förändrats mellan 1968 och 2014. H0 : π = 0.5




b) Formulera din mothypotes, matematiskt eller med ord.

Mothypotesen är att medelvärdet på längden har förändrats mellan 1968 och 2014. H1 : π ≠ 0.5 (dubbelsidig mothypotes)




c) Signifikansnivån, α, sätter vi till 0.05. Vad innebär det?

Vi accepterar att i 5 % (1 av 20) av fallen kommer vi förkasta nollhypotesen (H0) när H0 är sann. Risk att dra slutsatsen att det finns en skillnad (förkasta H0), trots att skillnaden i verkligheten inte existerar (H0 är sann).




d) Testfunktionen du ska använda ser ut så här. Vad heter testet?

T-test:

external image placeholder?w=200&h=55

e) Hur skiljer sig en T-fördelning från en normalfördelning?

Mer spridd än en normalfördelning.

Vid α = 0.05 blir det värde på T du ska jämföra med, ur tabellen, för rätt antal frihetsgrader, ungefär 1.98.
f) Hur många frihetsgrader räknar vi med i den här uppgiften?

Df = (n-1) = 121-1 = 120.




g) Genomför testet.

external image placeholder?w=227&h=58

Tolka resultatet, d v s svara på frågan i uppgiften, och motivera ditt svar.

För att man ska kunna säga att medellängden 2014 är skild från medellängden som uppmättes 1968 måste beloppet av det erhållna T-värdet, |T|, vara större än 1.98.



|2,3| > |1.98|. Därför kan vi säga att den större längd man uppmätt i genomsnitt och dagens tandläkarstudenter statistiskt skiljer sig från längden uppmätt 1968. Vi förkastar nollhypotesen, H0, och accepterar vår mothypotes, H1.

Man kan också tänka sig, att Olle istället väljer att räkna på om skillnaden i längd mellan tandläkarstudenter idag och för 40 år sen är statistiskt signifikant med hjälp av ett konfidensintervall.

Använd samma siffror som i förra uppgiften; Nuvarande tandläkarstudenters längd i genomsnitt 178 cm, och medelvärdet 176,7 cm (s=6,18) i ett stickprov på 121 studenter från 1968-1970.
a) Ge ett 95 % -igt konfidensintervall för den genomsnittliga längden hos tandläkarstudenter 1968-1970. Använd formeln nedan där T = 1.98 (ur tabell) för α =0.05 och rätt antal frihetsgrader).

external image placeholder?w=350&h=50


KI = 175,3 – 177,8




b) Vad innebär ett 95 % -igt konfidensintervall för ett medelvärde från ett stickprov?

Att det sanna medelvärdet i populationen med 95 % sannolikhet ligger inom det givna intervallet.




c) Tolka resultatet från ditt konfidensintervall runt medelvärdet på tandläkarstudenter för 40 år sen; Med ledning av svaret på förra frågan – vad kan sägas om längden hos tandläkarstudenter för 40 år sen, jämfört med längden hos dem som är under utbildning 2014?

Att den sanna medellängden för tandläkarstudenter 1968 med 95 % sannolikhet ligger inom intervallet 175,3 – 177,8 cm.



Vårt uppmätta medelvärde för 2014 ligger på 178 cm. Alltså utanför konfidensintervallet. Det betyder att medellängden 2014 (178 cm) är skild från medellängden 1968.

2014HTOmtentamen

Max: 67p. Godkänd: 46p (69 %)

Beskriv skillnaden mellan följande begrepp kortfattat:
a) Observationsstudie och interventionsstudie

I en observationsstudie observerar man bara och beskriver vad man mätt upp, ex hur ont tandläkarstudenter har i ryggen.



I en interventionsstudie jämför man vad en åtgärd får för effekt i en testgrupp gentemot en kontrollgrupp. Ex jämföra hur ont tandläkarstudenter har i ryggen beroende på om de får pausgympa (intervention) eller inte.




b) Nollhypotes och mothypotes

Nollhypotes, H0, säger att det i populationen inte finns någon skillnad eller förändring i det man mäter. Exempelvis att en orsak (rökning ja) inte påverkar utfallet (cancer ingen skillnad). Eller exempelvis att medellängden hos tandläkarstudenter inte förändrats mellan 1968 och 2014.



Mothypotes, H1, negerar nollhypotesen. Säger att det i populationen finns en skillnad eller förändring i det man mäter. Exempelvis att en orsak (rökning ja) faktiskt påverkar utfallet (cancer ja). Eller exempelvis att medellängden hos tandläkarstudenter har förändrats mellan 1968 och 2014.




c) Prospektiv kohortstudie och upprepad tvärsnittsstudie

Prospektiv kohortstudie är en sorts longitudinell studie, där man tittar på två olika grupper och om exponerade är mer sjuka (friska) än oexponerade. Den studerar hur läget är NU och FRAMÅT.

Exempelvis titta på tandläkarstudenter med/utan pausgympa och mäta ryggont 25 år senare.



Upprepad tvärsnittstudie tittar på hur läget är just nu – en ögonblicksbild. Exempelvis jämföra ryggont hos tandläkarstudenter med/utan pausgympa just nu. Denna mätning kan man sedan upprepa.




d) Cross-over-design och randomisering mellan intervention och kontroll

Cross-over-design innebär att en testgrupp och en kontrollgrupp får intervention (ex behandling) i olika sekvenser. Först är den ena gruppen testgrupp (får behandling) och den andra kontrollgrupp (får inte behandling). Därefter skiftar man, och den ena gruppen är kontrollgrupp och den andra testgrupp.

external image placeholder?w=200&h=154



Randomisering mellan intervention och kontroll innebär att man slumpar fram vilka som kommer hamna i testgruppen (intervention) och kontrollgruppen. På så sätt kommer slumpen att balansera ut flesta faktorerna och man kan studera enskilt hur interventionen (ex en medicin) påverkar utfallet.




e) Studieindivid och studievariabel

Studieindivid är en person som deltar i en studie.



Det är från den individen man kan få fram en studievariabel (ex ålder, kön, blodtryck).



(Studieindividen och studievariabeln har ett variabelvärde – ett mätvärde för varje tillfälle och individ. Exempelvis en studieindivids blodtryck (studievariabel) uppmätt vid flera tillfällen.).




Vad karaktäriserar ett slumpmässigt urval?

(Viktig fråga, även med på exempeltentan på GUL)

Att alla individer haft samma möjlighet att komma med i stickprovet (=representativt stickprov). På så sätt kan den studerade populationen speglas på bästa sätt. Det här kan göras med randomisering mellan intervention och kontroll, då slumpen gör att alla störfaktorer balanserar ut varandra. Det som då skiljer grupperna åt blir den faktorn man vill studera, exempelvis en medicins effekt på en sjukdom. Bevisvärdet av studien kommer därför bli högt.

Rangordna nedanstående studiedesigner efter fallande bevisvärde:

(svar enligt ordningen nedan)
  1. 1. Randomiserad kontrollerad studie
  2. 2. Prospektiv kohortstudie
  3. 3. Retrospektiv fall-kontrollstudie
  4. 4. Fallbeskrivning

En ”Tabell 1” i en artikel beskriver ofta, tex i en interventionsstudie, studiedeltagares bakgrundsvariabler. Den kan läsaren använda till att jämföra två grupper.
a) Vilka?

Test- och kontrollgrupp.




b) Vad vill man veta?

Ifall grupperna skiljer sig i bakgrunden.




c) Varför vill man veta det?

Skillnader i bakgrunden mellan studieindividerna kan påverka studiens resultat. Exempelvis kan kön och utbildning interagera med den studerade variabeln - ex rökning. Genom att presentera bakgrundsvariabler kan man få jämförbarhet i data mellan olika grupper genom att kompensera för olika fördelning på bakgrundsvariablerna.

Ange för var och en av variablerna ovan vilken skaltyp (Nominal-/ordinal-/intervall-/kvotskala) den mäts i, och i förekommande fall om variabeln är diskret eller kontinuerlig.
a) ”Ålder” – Kvotskala – diskret (om hela år), kontinuerlig (om decimaler).
b) ”Blodgrupp” – Nominalskala.
c) ”Rökvanor” – Ordinalskala.
d) ”Alkoholkons.” – Kvotskala - kontinuerlig.
e) ”Kolesterol” – Kvotskala - kontinuerlig.
f) ”S-GT” – Kvotskala - kontinuerlig.

(=glutamyltransferas i serum, tas vid misstanke om leversjukdom, µkat/l)
g) ”Läkarbesök” – Kvotskala - diskret.




Ange lämpligt genomsnitts- OCH spridningsmått för nedanstående 3 variabler.
a) ”Rökvanor” – daglig/ex-/icke-rökare.

à Typvärde (det som förekommer flest gånger - genomsnittsmått) och kvartilsavstånd (spridningsmått).




b) ”Alkoholkonsumtion” – g per kg kroppsvikt per år

à Medelvärde och standardavvikelse




c) ”Antal läkarbesök”

àMedian och kvartilsavstånd

Ind nr
Ålder
Blod-grupp
Rökvanor
Alkohol-kons.
Kolesterol

x - x̄

(x- x̄)2
S-GT
Läkarbesök
1
18
0
3
0
3.9
3,9-4,07= -0,17
0,03
0,25
0
2
18
AB
3
12.1
4.1
0,03
0
0,92
3
3
19
0
2
0
4.9
0,83
0,69
0,63
0
4
19
0
3
1.6
2.9
-1,17
1,37
0,18
0
5
20
A
1
12.2
3.6
-0,47
0,22
1,48
1
6
20
A
3
4.9
3.4
-0,67
0,45
0,30
1
7
20
B
2
0
4.1
0,03
0
0,47
2
8
21
A
1
11.3
3.2
-0,87
0,76
0,22
0
9
22
0
2
2.1
4.0
-0,07
0
0,47
4
10
22
0
1
15.6
3.8
-0,27
0,07
1,65
1
11
22
0
3
1.0
-


0,21
0
12
22
A
3
0
3.2
-0,87
0,76
0,38
0
13
23
B
2
0
4.4
0,33
0,11
0,29
0
14
23
A
1
8.4
6.7
2,63
6,92
0,56
4
15
24
0
2
9.5
4.0
-0,07
0
0,82
3
16
24
A
3
18.3
3.3
-0,77
0,59
0,19
1
17
25
A
3
6.8
2.8
-1,27
1,61
0,90
0
18
25
B
1
3.2
3.8
-0,27
0,07
0,77
2
19
26
0
3
0
3.7
-0,37
0,14
0,59
0
20
26
B
2
5.6
6.2
2,13
4,54
2,20
1
21
26
A
2
5.5
4.2
0,13
0,02
1,12
1
22
27
0
3
2.1
5.0
0,93
0,86
0,30
6
23
27
A
3
2.0
4.5
0,43
0,18
0,56
0
24
28
A
1
29.8
3.6
-0,47
0,22
0,81
3
25
28
0
1
0
3.4
-0,67
0,45
0,19
1
26
28
A
1
21.2
4.3
0,23
0,05
0,48
5
27
28
0
2
6.9
4.5
0,43
0,18
0,63
0
28
29
A
1
0
3.5
-0,57
0,32
0,35
2
29
29
0
2
0
4.5
0,43
0,18
0,40
2
30
29
A
3
8.8
4.6
0,53
0,28
0,42
0

(Blåa siffror fås i tentafrågan)
Ovan redovisas mätresultaten från en hälsoundersökning på män i åldrarna 18-29 år, gjord på ett slumpmässigt urval om 30 män. För varje man finns uppgift om ålder (år), blodgrupp, rökvanor (1=dagligrökare, 2=ex-rökare, 3=ickerökare), uppgiven alkoholkonsumtion (g per kg kroppsvikt per år), kolesterol (mmol/l), S-GT (=glutamyltransferas i serum, tas vid misstanke om leversjukdom, µkat/l) samt antal läkarbesök det senaste året. Individerna har sorterats efter stigande ålder.




Beräkna för variabeln ”kolesterol” - använd formeln nedan (standaravvikelse-formeln), och tag hjälp av de tomma tabellraderna, om det underlättar:
a) Medelvärde

Studien har ett bortfall i form av en man. Därför får vi räkna ut medelvärdet för 29 män istället.



Medelvärde, x = external image placeholder?w=200&h=50 , där ∑x = summan av termerna och n = antalet termer.



∑x = 3,9+4,1+4,9 + … + 3,5 + 4,5 + 4,6 = 118,1



n = 29

external image placeholder?w=247&h=50


b) Standardavvikelse






external image placeholder?w=384&h=58

8. Diskussion förs om huruvida dagens intagningssystem på universitetet har medfört att ungdomar påbörjar sina studier i tidigare ålder nu än för 40 år sen.

Medelåldern bland nyintagna studenter på tandläkarutbildningen i Norden uppmättes 2013 retrospektivt till 21.2 år, i en mätning utförd på 30 kullar med studenter (n=30, s=5.10). Från en liknande mätning utförd på 70-talet känner man till att medelåldern då var 23.8 år. Skiljer sig medelåldern bland nyintagna studenter vid tandläkarutbildningarna i Norden mellan nu och 40 år sen?

Utgå ifrån att medelåldern är approximativt normalfördelad.

Genomför en hypotesprövning.
a) Ange nollhypotesen.

Nollhypotesen är att medelåldern bland nyintagna studenter vid tandläkarutbildningarna inte förändrats mellan 70-talet och 2013. H0 : π = 0.5




b) Ange mothypotesen.

Mothypotesen är att medelåldern bland nyintagna studenter vid tandläkarutbildningen har förändrats mellan 70-talet och 2013. H1 : π ≠ 0.5 (dubbelsidig mothypotes)




a) Signifikansnivån, α, sätter vi till 0.05. Vad innebär det?

Vi accepterar att i 5 % (1 av 20) av fallen kommer vi förkasta nollhypotesen (H0) när H0 är sann. Risk att dra slutsatsen att det finns en skillnad (förkasta H0), trots att skillnaden i verkligheten inte existerar (H0 är sann).




b) Testfunktionen du ska använda ser ut så här. Vad heter testet?

T-test:



external image placeholder?w=200&h=55

Vid α=0.05 blir det värde på T du ska jämföra med, ur tabellen, för rätt antal frihetsgrader, ≈ ± 2,045.
h) Genomför en hypotesprövning.

Tolka resultatet av ditt test! (Svara på frågan som ställdes)

n= 30

s= 5,10

X = 21,2

µ = 23,8



external image placeholder?w=200&h=59

För att man ska kunna säga att medelåldern bland nyintagna studenter 2013 är skild från medelåldern som uppmättes på 70-talet måste beloppet av det erhållna T-värdet, |T|, vara större än ± 2,045.



|-2,79| > |-2,045|. Därför kan vi säga att medelåldern uppmätt 2013 statistiskt skiljer sig från medelåldern uppmätt på 70-talet. Vi förkastar nollhypotesen, H0, och accepterar vår mothypotes, H1.




9. Använd data från uppgift 8.
a) Gör ett 95 % -igt konfidensintervall för medelåldern för nyintagna tandläkarstudenter i Norden. Använd formeln nedan:

external image placeholder?w=344&h=50


KI = 19,3 – 23,1



Att den sanna medelåldern för nyintagna tandläkarstudenter 2013 med 95 % sannolikhet ligger inom intervallet 19,3-23,1 år.




b) Vad innebär ett 95 % -igt konfidensintervall för ett medelvärde från ett stickprov?

Att det sanna medelvärdet i populationen med 95 % sannolikhet ligger inom det givna intervallet.




c) Tolka resultatet; vad kan sägas om medelåldern hos nyintagna tandläkarstudenter nu och för 40 år sen?

KI = 19,3 – 23,1



Det uppmätta medelvärdet från 70-talet ligger på 23,8 år. Alltså utanför konfidensintervallet. Det betyder att medelåldern för nyintagna tandläkarstudenter 2013 (21,2 år) är skild från medelåldern på 70-talet.







TP3STA – Exempeltenta från GUL
Förklara följande begrepp kortfattat:
a) Observationsstudie

I en observationsstudie observerar man bara och beskriver vad man mätt upp, ex hur ont tandläkarstudenter har i ryggen.




b) Interventionsstudie

I en interventionsstudie jämför man vad en åtgärd får för effekt i en testgrupp gentemot en kontrollgrupp. Ex jämföra hur ont tandläkarstudenter har i ryggen beroende på om de får pausgympa eller inte.




c) Kohortstudie

Prospektiv. Nu och framåt. Är en sorts longitudinell studie, där man tittar på två olika grupper och om exponerade är mer sjuka (friska) än oexponerade.

Exempelvis titta på tandläkarstudenter med/utan pausgympa och mäta ryggont 25 år senare.

Felkällorna ffa bortfall.




d) Fallkontrollstudie

Retrospektiv. Nu och bakåt. Är en sorts longitudunell studie, där man tittar på två olika grupper och om sjuka (friska) är mer exponerande än friska.

Exempelvis titta på tandläkarstudenter med ryggont och uppskatta mängden pausgympa för 25 år sedan.

Felkällorna ffa mätfel – minns ex dåligt hur mycket pausgympa och smärta man hade.




e) Prospektiv studie

En studie där man undersöker hur det är fram i tiden - nu och framåt. Exempelvis prospektiv kohortstudie.




f) Retrospektiv

En studie där man undersöker hur det är bak i tiden - nu och bakåt. Exempelvis retrospektiv fallkontrollstudie.




g) Tvärsnittsstudie

Tvärsnittsstudie tittar på hur läget är just nu - ögonblicksbild. Exempelvis jämföra ryggont hos tandläkarstudenter med/utan pausgympa just nu. (Denna mätning kan man sedan upprepa à upprepad tvärsnittsstudie)




h) Kontrollgrupp

Den grupp som inte får en intervention (ex medicin). Ska vara så lik testgruppen som möjligt, bortsett från interventionen.




i) Matchade kontroller

En person i kontrollgruppen väljs ut som liknar den i testgruppen så mycket som möjligt, t.ex. vad gäller kön, ålder och vikt, men ska inte ha sjukdomen/behandlingen.


j) Placebo

Exempelvis när man i läkemedelsprövning använder ett overksamt preparat för kontrollgruppen. Oftast medför det en effekt att patienten tar något preparat, även om preparatet är overksamt.

Vad är den största fördelen med en randomiserad kontrollerad studie (som gör att den anses ha högre bevisvärde än andra studiedesigner)?

I en RCT fördelas många personer slumpmässigt till två grupper – test och kontroll. Slumpen gör att alla störfaktorer balanserar ut varandra. Det som då skiljer grupperna åt blir den faktorn man vill studera, exempelvis en medicins effekt på en sjukdom. Bevisvärdet av studien kommer därför bli högt.
Alla i populationen har också haft samma möjlighet att komma med i studien.

Ett stort bortfall ur en studie medför problem med hur resultatet ska tolkas. Varför då?

Bortfall leder till att resultatet kan bli helt annorlunda. Non-response(externt bortfall) innebär att folk väljer att inte delta och urvalet blir inte representativt.
Missing data (internt bortfall) innebär att någon inte kom vid ex ett mättillfälle och datan kan bli otillräcklig eller missvisande.




Forskning på människor kräver godkänd prövning av studiens upplägg av en etisk kommitté. Två saker/områden anses särskilt viktiga som utgångspunkt för beslutet. Vilka?

”Grundläggande är att forskning bara får godkännas om den kan
  1. 1. Utföras med respekt för människovärdet och att mänskliga rättigheter beaktas
  2. 2. Människors välfärd skall ges företräde framför samhällets och vetenskapens behov”

Ange typ av variabel (Nominal/Ordinal/Intervallsskale-/Kvotskale-) samt i förekommande fall också om variabeln är diskret eller kontinuerlig:
a) Kön (man/kvinna) – Nominal.
b) Ålder (hela år) – Kvot – diskret.
c) Nöjdhet med min insats på tentamen (nöjd/varken nöjd eller missnöjd/missnöjd) – Ordinal.
d) Kaffekonsumtion (antal koppar/dag) – Kvot – diskret.
e) Kaffekonsumtion (deciliter/dag) – Kvot – kontinuerlig, om decimal. Annars diskret om hela deciliter.

Beskriv skillnaden mellan absolut och relativ frekvens.

(Fördelningen av en variabel illustreras med en frekvenstabell. Där anges de variabelvärden som kan förekomma samt deras frekvenser. Frekvensen anger hur många individer som har respektive variabelvärde.)
Absolut frekvens presenterar varje variabelvärde för sig i siffror. Exempelvis av 10 personer hade 2 personer 1 katt, 4 personer hade 2 katter och 1 person hade 4 katter.
Antal individer
Antal katter
2
1
4
2
1
4

Relativ frekvens presenterar siffermaterialet i form av procent. Det här kan göra materialet mer lättöverskådligt. Exempelvis av 10 personer hade 20% 1 katt, 40% 2 katter och 10% 4 katter.
Andel individer
Antal katter
20%
1
40%
2
10%
4




Är nedanstående studie kvalitativ eller kvantitativ?

Kvantitativ.
external image placeholder?w=431&h=393
Sara undersöker barn på sin klinik och noterar hur många kariesskador de har i sina mjölktänder – för att kunna jämföra med hur friska barnen är vid andra folktandvårdskliniker i samma stad. Hon undersöker 11 barn, och kommer fram till följande:
Individ nr
Antal kariesskador
Rangordnade data

x - x̄

(x- x̄)2
1
1
0
-0,73
0,53
2
0
0
-1,73
2,99
3
1
0
-0,73
0,53
4
1
1
-0,73
0,53
5
2
1
0,27
0,07
6
0
1
-1,73
2,99
7
0
1
-1,73
2,99
8
3
2
1,27
1,61
9
2
2
0,27
0,07
10
8
3
6,27
39,1
11
1
8
-0,73
0,53

19


51,94
(Blåa siffror fås i tentafrågan)
a) Räkna ut medelvärdet.

Medelvärde, x = external image placeholder?w=200&h=50 , där ∑x = summan av termerna och n = antalet termer.



∑x = 1+0+1+…+2+8+1 = 19



n = 11



x = external image placeholder?w=224&h=50




b) Räkna ut medianen.

external image placeholder?w=491&h=50
Alltså 6:e talet i ”Rangordnade data” à 1 kariesskada.




c) Båda är s k lägesmått. Vad är skillnaden mellan dem?

I beräkningen av medelvärde tar man med flera termer, medan medianen istället fås genom att titta på en term (den som är mitterst i rangordning).




d) När använder man medelvärdet, respektive medianen?

Medelvärde = jämn fördelning

Median = skev fördelning



Vid jämn fördelning kommer medelvärde att fungera bra, då det inte finns några extremvärden.



Vid skev fördelning kommer däremot medelvärdet att inkludera de utstickande extremvärdena. Exempelvis om man går 1, 2 och 20 km på 3 olika dagar, där 20 km kommer användas för att räkna ut medelvärdet.

Medianen kommer istället säga att vi i genomsnitt gick 2 km per dag, vilket kan anses stämma bättre överens med verkligheten.




e) Räkna ut standardavvikelsen enligt formeln nedan. Använd tabellen om det underlättar.

external image placeholder?w=200&h=58


n = 11
external image placeholder?w=369&h=58

Standardavvikelsen är 2,28.




f) Standarvavvikelsen är ett spridningsmått. Beskriv med ord vad formeln innebär, vad ger standardavvikelsen för information om våra data?

Standardavvikelsen (s) utgör det genomsnittliga avståndet till medelvärdet för alla variabler. external image placeholder?w=259&h=50 och external image placeholder?w=267&h=50 innefattar 68 % av stickprovets alla värden. Fördelning av våra data är alltså ganska spridd. Ju högre standardavvikelsen är, ju mer spridd är datan.




g) När används standardavvikelsen som spridningsmått?

När spridningen är symmetrisk - normalfördelning. Vid kontinuerliga variabler – många biologiska variabler fördelar sig ungefär såhär, symmetriskt runt ett medelvärde, och oändligt i båda riktningarna.

https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/400px-Standard_deviation_diagram.svg.png
https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/400px-Standard_deviation_diagram.svg.png





h) Nämn ett spridningsmått för variabler där standardavvikelsen inte kan användas.

Kvartilavstånd - när spridningen är skev.




Varför gör man statistisk hypotesprövning?

För att undersöka om ett medelvärde är statistiskt skild från nollhypotesen, H0. På så sätt kan man förkasta eller inte förkasta en nollhypotes.

Vad är en nollhypotes?

Nollhypotes, H0, säger att det i populationen inte finns någon skillnad eller förändring i det man mäter. Exempelvis att en orsak (rökning ja) inte påverkar utfallet (cancer ingen skillnad). Eller att medelvärdet på längden hos tandläkarstudenter inte förändrats mellan 1968 och 2014. H0 : π = 0.5

I samband med en kartläggning av trivsel på arbetet vid kommunala verkstäder, ingick i en enkätundersökning en fråga om hur länge de svarande hade arbetat i sitt yrke. Medelvärdet beräknades till 18.2 år (s=9.83) bland de 318 slumpmässigt utvalda medarbetare som ingick i studien. Variabeln är approximativt normalfördelad. Från en 10 år gammal undersökning vet man, att medelvärdet för arbetstiden i yrket var 16.8 år på den aktuella arbetsplatsen. Skiljer sig den nuvarande arbetslängden från tidigare förhållanden? Genomför lämpligt test – men läs först nedan:
a) Ange nollhypotesen, matematiskt eller med ord.

Nollhypotesen är att arbetslängden inte förändrats under de 10 åren fram till idag.

H0 : π = 0.5




b) Ange mothypotesen, matematiskt eller med ord.

Mothypotesen är att arbetslängden har förändrats under de 10 åren fram till idag.

H1 : π ≠ 0.5 (dubbelsidig mothypotes)




c) Signifikansnivån, α, sätter vi till 0.05. Vad innebär det?

Vi accepterar att i 5 % (1 av 20) av fallen kommer vi förkasta nollhypotesen (H0) när H0 är sann. Risk att dra slutsatsen att det finns en skillnad (förkasta H0), trots att skillnaden i verkligheten inte existerar (H0 är sann).




d) Testfunktionen du ska använda ser ut så här. Vad heter testet?

T-test:

external image placeholder?w=200&h=55

e) Hur skiljer sig en T-fördelning från en normalfördelning?

Mer spridd än en normalfördelning.
Vid α = 0.05 blir det värde på T du ska jämföra med, ur tabellen, för rätt antal frihetsgrader, ungefär 1.96.
f) Hur många frihetsgrader räknar vi med i den här uppgiften?

Df(n-1)= 318-1 = 317.
g) Tolka resultatet av ditt test! (Svara på frågan som ställdes)



external image placeholder?w=231&h=58

För att man ska kunna säga att arbetslängden är skild från den som uppmättes för 10 år sedan måste beloppet av det erhållna T-värdet, |T|, vara större än 1.96.



|2,54| > |1,96|. Därför kan vi säga att arbetslängden man uppmätt statistiskt skiljer sig från den för 10 år sedan. Vi förkastar nollhypotesen, H0, och accepterar vår mothypotes, H1

Man ville studera sambandet mellan mammors rökvanor och deras barns födelsevikt (som är approximativt normalfördelad). Från studien hämtades följande data:

Medelvärdet för födelsevikten för barn vars mammor rökte (n=43) var 3.08 kg (s=0.49).

För barn vars mammor INTE rökte (n=122) var medelvikten vid födseln 3.29 kg (s=0.37).
a) Ge ett 95 % konfidensintervall för födelsevikten bland barn vars mammor INTE rökte under graviditeten. Använd formeln nedan:

där T=1.98 (ur tabell, för α =0.05 och Df (antal frihetsgrader)=121).

external image placeholder?w=332&h=50KI = 3,22 – 3,36




b) Vad innebär ett 95 % -igt konfidensintervall för ett medelvärde från ett stickprov?

Att det sanna medelvärdet i populationen med 95 % sannolikhet ligger inom det givna intervallet.




c) Tolka resultatet; vad kan sägas om födelsevikten hos barn med mammor som röker respektive INTE röker, under graviditeten?

Att den sanna medelvikten för barn vars mammor inte röker med 95 % sannolikhet ligger inom intervallet 3,22 – 3,36 kg.



Hos barn vars mammor röker är medelvikten 3,08 kg. Detta ligger utanför konfidensintervallet. Därför kan vi säga att medelvikten hos barn vars mammor inte röker är skild från medelvikten hos barn vars mammor röker.